Проект РНФ № 12-34-567890

Обновлено: 12.06.2023

Форма 1. Сведения о проекте

1.1. Название проекта

Технологии мобилизации первичной информации о распространении и разнообразии живых организмов: из литературного наследия в озеро данных

=Primary data on diversity and distribution biological organisms: techniques of mobilization from literature legacy to digital lake

1.2. Приоритетное направление

Приоритетное направление развития науки, технологий и техники в Российской Федерации, критическая технология

Направление: 6. Рациональное природопользовани

Технология: 19. Технологии мониторинга и прогнозирования состояния окружающей среды, предотвращения и ликвидации ее загрязнения.

1.3. Ключевые слова

Информатика биоразнообразия, экология, зоология, биогеография, геоинформационные технологии, ГИС, пауки, Araneae, Урал

Английский:

!_1.4. Аннотация проекта

!_1.5. Ожидаемые результаты и их значимость

ГИПОТЕЗЫ!!!

1.7. Планируемый состав научного коллектива


1. Созонтов Артём Николаевич, 33 года, к.б.н. (руководитель). Институт экологии растений и животных УрО РАН, научный сотрудник (трудовой договор)
2. Иванова Наталья Владимировна, 33 года, к.б.н. (исполнитель). Институт математических проблем биологии – филиал Института прикладной математики им. М.В. Келдыша РАН, старший научный сотрудник (трудовой договор).
3. Соколова Софья Сергеевна, 27 лет (исполнитель). Ильменский государственный заповедник УрО РАН, младший научный сотрудник (трудовой договор), к моменту начала проекта предполагается начать обучение в аспирантуре Института экологии растений и животных УрО РАН.
4. Устинова Анастасия Леонидовна, 23 года (исполнитель). Пермский национальный исследовательский университет, аспирант.

Соответствие профессионального уровня членов научного коллектива задачам проекта

Созонтов А.Н. в течение последних 10 лет занимается фауной, экологией и биогеографией пауков, последних 5 лет – информатикой биоразнообразия, обработкой и анализом данных, пространственной эколгией, геоинформационными технологиями, а также читает по этим направлениям курсы для студентов бакалавриата, магистрантов и аспирантов. По результатам этой работы опубликовано более 10 работ в журналах, индексируемых в списках WoS/Scopus и одна монография. Разработал несколько авторских скриптов и онлайн-приложений для управления данными о биоразнообразии. В дополнение к научно-педагогической деятельности занимается популяризацией науки о живой природе.

Иванова Н.В. более 15 лет работает в области информатики биоразнообразия и закономерностей пространственного распределения живых организмов. Последние 10 лет активно занимается повышением квалификации отечественных исследователей в отношении стандартов и качества данных о распространении и разнообразии живых организмов. Обеспечивает организационную и техническую поддержку национального портала, посвященного открытым данным о биоразнообразии. На эти темы в журналах, индексируемых в списках WoS/Scopus Иванова Н.В. опубликовала более 10 статей только за последние 5 лет.

Соколова С.С. выпускница пермской арахнологической школы и имеет 5 научных публикаций. Работает в системе природоохранных организаций, в дополнение к этому занимается популяризаторской деятельностью, повышает свою квалификацию в области организации Citizen Science проектов, участвуя в круглых столах, вебинарах, онлайн и .

Устинова АЛ. аспирантрка пермской арахнологической школы, владеет навыком работы в библиографичеких информационных системах. При консультационной поддержке А.Н. Созонтова освоила стендарты данных о биоразнообразии и методы работы с ними.

1.12. Возможность использования результатов

Информация о возможности использовании результатов выполнения проекта в осуществлении хозяйственной деятельности предприятий Российской Федерации, в том числе о способе использования, о намерениях по внедрению на основании прогнозируемых результатов проекта новой или усовершенствованию производимой продукции (товаров, работ, услуг), новых или усовершенствованных применяемых технологий; о формировании по итогам реализации проекта научных и технологических заделов, обеспечивающих экономический рост и социальное развитие Российской Федерации (с приложением подтверждающих документов, при наличии)

На основе полученного набора данных для крупных регионов возможен мониторинг состояния окружающей среды и природных ресурсов по биологическому контролю за насекомыми-фитофагами. Это позволит оценить текущий биологический и экономический эффект для сельского и лесного хозяйства, а также спрогнозировать величину этого эффекта при других технологиях хозяйствования и/или изменении климата. Эти оценки могут стать теоретической основой для принятия управленческих решений как на частном уровне, так и на административном. Кроме того, разработанные технологии вовлечения больших данных в общедоступный оборот помогут разработать аналогичные наборы данных для других регионов и групп живых организмов.

Форма 2. Сведения о руководителе

2.10. Основные научные результаты руководителя проекта за период с 1 января 2017 года

Научная деятельность

Обобщены и проанализированы многолетние сборы пауков в Удмуртской Республике, в т.ч. предложен комплексный подход к синэкологическому анализу группировок пауков, соответствующий общемировым трендам в количественной обработке данных [Созонтов, 2018]. Полученный первичный материал, снабженный экспертными и аналитическими оценками по каждому из четырех сотен видов, представлен в традиционном формате в виде монографии [Sozontov, Esyunin, 2022], а также в виде набора данных по стандарту DarwinCore [Sozontov, 2021]. Эти же наработки применены к многолетним данным пауков Висимского биосферного заповедника [Sozontov, Esyunin, Ukhova, 2023 in print]. Выявлены первые стадии восстановления паукообразных и жужелиц после снижения выбросов медеплавильного завода, описана их специфика [Бельская и др., 2023 in print; Созонтов и др., 2022]. Проанализированы многолетние изменения β-разнообразия сообществ мелких млекопитающих в зоне действия медеплавильного завода в контексте снижения количества выбросов [Mukhacheva, Sozontov, 2021]. При непосредственном участии А.Н. Созонтова первые в России начаты исследования функционального разнообразия членистоногих почвы и напочвенной подстилки [Малых, Созонтов, 2022]. Предложил аналитический алгоритм для оценки коэффициентов сходства и мер расстояния [Rodionov, Sozontov, 2020; Родионов, Созонтов, 2019] – основы кластерного, ординационного и других форм анализа многовидовых сообществ. Разработаны частные решения по сопоставлению данных разного формата, качества и происхождения [Созонтов, 2023]. В качестве эксперта по обработке и стандартизации данных о биоразнообразии принял участие в двух териологических проектах [Mukhacheva, Davydova, Sozontov, 2022; Гасилин и др., 2021].

Научно-организационная и просветительская деятельность

Принял участие в организации пяти всероссийских научных мероприятий («Экология: факты, гипотезы, модели. Конференция молодых ученых, 2019, 2021, 2022, 2023, организатор, член комиссии, редактор сборника; VII полевая школа по почвенной зоологии и экологии, 2021, секретарь) и одного международного (IV Международное арахнологическое совещание «ArachnoMeeting», 2021, председатель). На профильной арахнологической секции апробирован и согласован план проекта по мобилизации данных [Созонтов, 2022]. Разработал ряд онлайн-приложений по управлению данными о биоразнообразии: конвертор табличных данных в формат DarwinCore (sozontov.shinyapps.io/gbif), тип `occurrence`; приложение для поиска и картографической визуализации микологических находок Евразии; комплексная карта-приложение по первичным данным о различных компонентах биоты в условиях точечного промышленного загрязнения тяжелыми металлами. Совместно с центром популяризации биоразнообразия «НатУРАЛист» занимается популяризацией с 2019 года: проводит до 4 энтомологических экскурсий за летний сезон, читает публичные лекции в зимний период.

Педагогическая деятельность

Преподает в Уральском федеральном университете (с 2019 г. по наст.вр., предметы: «Модели в экологии», «Современные методы обработки данных»), преподавал в Удмуртском государственном университете (c 2016 по 2019 г., предметы: «Математические методы в биологии», «Компьютерные технологии в биологии», «Полевая практика по биоразнообразию»). В должности старшего преподавателя отдела аспирантуры ИЭРиЖ УрО РАН преподаёт аспирантам второго и третьего года обучения (предметы «Статистическое сопровождение экологических исследований» и «Современные методы обработки данных» соответственно). Руководил работой над магистерскими диссертациями (2), дипломной работой специалиста (2), дипломными работами бакалавров (8).

Форма 4. Содержание проекта

4.1. Научная проблема

Научная проблема, на решение которой направлен проект

Проект направлен на решение проблемы возврата первичных данных о разнообразии живых организмов в оборот многократного использования. Будучи однажды полученными, они не всегда оказываются опубликованными в печати, существуя только на музейных этикетках, в полевых дневниках, лабораторных журналах и других рукописях. В случае же их публикации в традиционном формате, возможности многократного использования все равно существенно осложнены рядом одновременно требуемых условий: 1) знать о существовании каких-то публикаций (эта проблема со временем становится лишь острее в связи с экспоненциальным ростом количества научных публикаций [Bornmann, Haunschild, Mutz, 2021] и журналов [Thelwall, Sud, 2022]); 2) получить текст публикаций (если информация не в тексте, а в приложении, тогда и приложение к статье тоже необходимо получить); 4) владеть языком, на котором дана информация; 5) вручную переписать или скопировать информацию; 6) привести информацию из разных источников «к общему знаменателю». Даже когда все требования соблюдены, это отнимает огромное количество времени, на порядки задерживает скорость работы и скорость накопления доступных для использования данных.

Существуют технические средства, использование которых снимает все обозначенные выше затруднения и даёт возможность получать колоссальные объёмы данных посредством поисковых запросов через пользовательский интерфейс, API или консольные запросы. Однако здесь появляется новая проблема – эти самые данные уже должны быть оцифрованы (а также стандартизированы и вычищены) и представлены в БД [Созонтов, 2023]. Предлагаемый проект прокладывает мост между прошлым и будущим, по которому массивы открытых данных о биоразнообразии смогут пополняться ценнейшей информацией из литературного наследия, в настоящий момент неиндексируемой и необнаружимой средствами поиска.

4.2. Научная значимость

Научная значимость и актуальность решения обозначенной проблемы

Более 10 лет назад стала очевидной глубокая зависимости фундаментальной экологии (и на локальном, и на глобальном уровне) от высококачественных данных по широкому спектру таксонов и регионов. Бек с соавторами [Beck и др., 2012] считают вопросы аккумуляции и использования данных одним из четырех ключевых направлений современной экологии и биогеографии. Они, будучи оцифрованными, качественными и проиндексированными, служат важной основой для решения множества фундаментальных и прикладных проблем, позволяя даже с традиционными подходами работать в глобальном масштабе [Hoogen и др., 2020; Phillips и др., 2021] и/или в высоком пространственном разрешении [Keil, Chase, 2019].

Собственно говоря, агрегирование данных изначально было одной из задач науки о биоразнообразии, пусть и не всегда формулируемой в явном виде [Ball-Damerow и др., 2019; Nelson, Ellis, 2018]. В ряде случаев решение этой задачи осложнено или невозможно (см. раздел 4.1): данные однажды получены, но остаются неиндексируемыми и необнаружимыми. Возвращение таких «темных данных» в научный оборот – одно из ключевых направлений развития науки в XXI в. [Heidorn, 2008], что в полной мере касается и наук об окружающей среде. В сравнении с другими «большими вызовами», здесь нет концептуальных проблем, но сам процесс рутинный и трудоёмкий. Необходимы оригинальные решения по его интенсификации и популяризации.

Для данных о биоразнообразии сейчас существуют агрегаторы (см. раздел 4.5) и разработанные научным сообществом стандарты, например DarwinCore [Wieczorek и др., 2012], HumboldtCore [Guralnick, Walls, Jetz, 2018] и др. Это чрезвычайно важный этап, благодаря которому решение множества экологических вопросов продвинулось далеко вперед, опубликованы десятки тысяч статей. Тем временем все ещё большой объем данных остается не отражен в агрегаторах, а сами они – изолированны друг от друга [Feng и др., 2022], пока лишь некоторые из них работают над взаимной интеграцией. Специалисты ожидают, что именно эти проблемы будут решены на следующем этапе крупного приращения знаний о биоразнообразии Земли, через интеграцию баз данных о биоразнообразии и вовлечение в них упускаемых пока что «темных данных» [König и др., 2019; Hobern и др., 2019]. Впрочем, достаточность этих двух задач вызывает сомнения, поскольку это само по себе напрямую не приводит к аналогичному увеличению объема знаний и глубины понимания экологических закономерностей [Feng и др., 2022]. Соответственно, необходимы новые подходы, облегчающие поиск, доступ, интеграцию и повторное использование данных о биоразнообразии.

Важно отметить, что специалисты по информатике биоразнообразия не считают глобальные порталы-агрегаторы способными удовлетворить все потребности в данных. Необходимость национальных и даже региональных ресурсов обусловлена их возможностями учитывать местную специфику природных условий и приоритетных [Belbin, Williams, 2015; Schulman и др., 2021]. В полной мере это релевантно и для России, а также для её регионов [Ivanova, Shashkov, 2017].

4.3. Конкретные задачи

Конкретные задачи в рамках проблемы, на решение которой направлен проект, ее масштаб и комплексность

  1. Разработка веб-приложения для занесения литературных данных о находках пауков

  2. Запуск Citizen Science проекта по оцифровке литературных данных о разнообразии и распространении пауков Урала и Предуралья

  3. Разработка методов машинного обучения для оцифровки литературных данных и сравнение их эффективности с Citizen Science проектом

  4. Интеграция оцифрованных данных с внешними ресурсами и источниками по условиям среды, филогении и функциональным признакам (traits) пауков

  5. Размещение полученного набора данных в сети и организация открытого доступа к нему

Масштаб работы. Перечисленные задачи полностью находятся в рамках общенаучного тренда на размещение в открытых репозиториях и базах данных всей первичной информации. С использованием пауков уральского региона в качестве примера, будут созданы и отлажены технологии мобилизации данных о находках живых организмов и интеграции этих БД с другими ресурсами. Разработанные технологии могут быть успешно масштабированы до любого региона и/или адаптированы для других групп живых организмов.

Комплексность работы. Проект является междисциплинарным, на стыке классических наук о жизни (экологии, зоологии, биогеографии) и науки о данных, а также содержит элементы популяризации. Исполнители имеют классический естественно-научный бэкграунд (все), высокую квалификацию по информатике биоразнообразия и обработке данных (Созонтов А.Н., Иванова Н.В.) и опыт популяризаторской деятельности (Созонтов А.Н., Соколова С.С., Устинова А.Л.).

!_4.4. Научная новизна

Научная новизна исследований, обоснование того, что проект направлен на развитие новой для научного коллектива тематики, обоснование достижимости решения поставленной задачи (задач) и возможности получения предполагаемых результатов

!_4.5. Современное состояние исследований

Современное состояние исследований по данной проблеме, основные направления исследований в мировой науке и научные конкуренты

4.6. Методы, подходы, план и ожидаемые результаты

Предлагаемые методы и подходы, общий план работы на весь срок выполнения проекта и ожидаемые результаты

Инструменты и технологии оцифровки

Для оптимизации ввода литературных данных мы разработаем веб-приложение рис. 1. Такой способ даёт кроссплатформенность – возможность использования с любого устройства (компьютер, планшет, телефон) и любой операционной системы (Windows, Linux, Android, MacOS, iOS) без необходимости устанавливать какое-либо ПО, просто введя URL-адрес в браузер. У пользователя будет возможность зафиксировать любое из введенных полей для ускоренного многократного ввода остальных. Это актуально как для таксономических публикаций, когда для одного таксона приводится множество находок, так и экологических, где для одной пробы или географической точки приводится множество таксонов. Приложение будет написано на shiny – платформе, специализированной для созданий веб-приложений на языке программирования R [Chang и др., 2022; Sievert, 2020] (примеры). Ядро приложения генерирует веб-страницу, осуществляет контроль за обработкой вводимых и отображаемых данных, оставляет возможности для тонкой настройки пользовательского интерфейса таблицами стилей CSS. Мы предусматриваем встроенные механизмы проверки вводимых данных. Например, для автозаполнения таксономических названий без опечаток ядро приложения будет синхронизировано с базой данных каталога пауков мира [WSC, 2023] пакетом arakno [Cardoso, 2022]. На основе каталога ОКТМО и Росреестра аналогичный подход будет применен для названий административных регионов, районов и населенных пунктов.

Рис. 1. Схема онлайн-приложения


Предзагруженные (публикации, таксономические и географические названия) и вводимые пользователями данные будут структурированы в виде реляционной базы данных (набор таблиц, взаимосвязанных через идентификаторы), созданной и управляемой PostgreSQL (v.14). Таблицы базы: «пользователи», «публикации», «регионы», «таксоны» и ключевая – «записи». Обращение из R в базу данных организует пакет ‘RPostgreSQL’ [Conway и др., 2022]. Одна публикация будет предложена для оцифровки более чем одному пользователю, поэтому внесенные записи будут проходить кросс-верификацию и только в случае совпадения попадать в основную базу, считаясь находками. Внутренняя обработка табличных данных будет выполняться средствами пакетов dplyr [Wickham и др., 2022] и tidyr [Wickham, Girlich, 2022], пространственных данных – sf [Pebesma, 2018], raster [Hijmans, 2022], stars [Pebesma, 2022], визуализация графиков и карт – ggplot2 [Wickham, 2016] и leaflet [Cheng, Karambelkar, Xie, 2022]. Разворачивать приложение и систему управления базами данных (СУБД PostgreSQL) будем на виртуальном сервере под управлением OS Linux Ubuntu Server 22.04 LTS. Все используемые при создании веб-приложения технологии и программы бесплатные.

Онлайн-ресурс будет содержать функции поиска – табличного и пространственного, визуализации и анализа. Мы планируем разработку модулей для подгрузки данных по условиям среды и характеристикам видов пауков. В первом случае это высота н.у.м. – SRTM Digital Elevation Model, климатические данные – WorldClim, растительность – Global Forest Watch Open Data Portal и NASA Earth Observatory, тип землепользования – OpenStreetMap и Global Forest Watch Open Data Portal. Во втором – функциональные признаки (traits) – World Spider Trait database [Pekár и др., 2021], и данные по филогении – последовательности гена COI из Barcode of Life Data System (BOLD) и консенсусные филогенетические деревья из проекта Open Tree of Life. Это позволит включать в анализ расчет не только таксономическое разнообразие, но также функциональный и филогенетический аспект биоразнообразия. Все перечисленные источники являются открытыми и их данные доступны через API (протокол обмена данными между программами напрямую, минуя интерфейс пользователя) или пакеты для R.

Машинное обучение

Для автоматизированного извлечения этикеточных данных из текстов (таксономические названия, локалитеты и координаты места сбора, дата и биотоп сбора и др.) мы разработаем нейросетевую модель методами глубокого обучения, при котором между входным и выходным слоями нейронов расположено до нескольких десятков скрытых слоёв. Исходные тексты будут предварительно разбиваться на фрагменты до 1500 знаков с перекрытием, а затем преобразованы в воспринимаемый нейросетью векторный формат набором алгоритмов Word2Vec. В качестве архитектуры самой нейросети мы опробуем Transformer и рекуррентные нейронные сети. Все перечисленные выше решения оптимизированы под учёт семантического контекста, последовательности слов, зависимостей между словами в тексте, и хорошо зарекомендовали себя задачах, требующих внимания к этим аспектам естественного языка. Обучающая выборка из 40 статей с разнообразными форматами представления этикеточной информации будет сформирована и размечена силами коллектива исполнителей. В дальнейшем мы планируем использовать для дообучения нейросетевой модели статьи, обработанные волонтерами в ходе реализации Citizen Science проекта.

Проблему потенциального переобучения модели (слишком точной подстройки под данные обучающей выборки и неспособности работать на новых, неизвестных данных) мы будем решать регуляризацией моделей. Регуляризация добавляет дополнительный штраф на определенные параметры модели, контролируя переобучение и делая её более робастной. Мы будем применять L1 регуляризацию и Dropout. Первый способ позволяет отбросить ненужные признаки, что релевантно для нашего случая, когда целевые блоки текста строго очерчены, а остальные не информативны. Второй способ случайно обнуляет некоторые из выходов слоя во время обучения, что поможет модели лучше справляться с неточностями, возникшими при распознавании сканов и опечатками, имевшимися в рукописях изначально.

Модельные таксоны и регионы

В качестве пилотного таксона для проекта по оцифровке пауки удобны по ряду причин. Во-первых, их таксономия на уровне родов и видов достаточно стабильна, а номенклатурные акты и даже ошибочно указанные названия проиндексированы в регулярно обновляемом каталоге пауков мира [WSC, 2023; Nentwig, Gloor, Kropf, 2015]. Связь с его данными возможна минуя веб-интерфейс, - через API и arakno – пакет для R [Cardoso, 2022]. Во-вторых, перечень литературных источников, подлежащих оцифровке, исчерпывающий и четко очерченный. С.Л. Есюнин и К.Г. Михайлов в своих каталогах [Esyunin, Efimik, 1996; Mikhailov, 1997; Mikhailov, 2013a; Esyunin, 2023 in print] и библиографических сводках [Михайлов, 2012] тщательно учитывают все публикации по паукам России и Урала. Для Урала это 450 источников. Предварительно оценить объем данных можно взяв 8 фаунистических и таксономических публикаций в качестве примера [Esyunin, Kazantsev, 2007; Azarkina и др., 2018; Fomichev, Ballarin, Marusik, 2022; Mikhailov, 2013b; Sozontov, Esyunin, 2014; Есюнин, Новокшенов, 1992; Танасевич, 1985; Тунева, Есюнин, 2012]. Суммарно в них содержатся сведения о 1 420 находках (=occurrences – любое количество экземпляров одного вида, найденный в одной географической точке, в определенном биотопе, в одну дату и одним методом), основанных на 4 779 особях. Таким образом, общий объем «темных данных», подлежащих оцифровке, можно предварительно оценить в 80 000 находок и 270 000 особей, хотя реальное число может оказаться ниже, поскольку не все из публикаций оперируют находками.

Волонтерский проект

Возможности и перспективы гражданской науки (Citizen Science, принцип действия на рис.1) были освещены в разделе 4.5. Мы реализуем оригинальный подход к оцифровке с привлечением волонтеров, чей труд по оцифровке будем поощрать просветительскими материалами и мероприятиями. Они, будучи организованными квалифицированными экспертами, эксклюзивны, что становится их ключевой ценностью.


Рис. 1. Принцип организации Citizen Science проекта по оцифровке данных о биоразнообразии

Здесь отметим, что волонтерство не предполагает оплаты за труд, но не исключает других источников мотивации и форм поощрения. Последнее особенно актуально при ручной оцифровке данных – достаточно трудоёмком процессе. Это требует поощрения и с точки зрения этики, и с точки зрения поддержания мотивации к участию в проекте. В качестве поощрений мы планируем:

  • Познавательные заметки про строение, биологию, экологию и эволюцию пауков и родственных им групп

  • Лекции по этой же тематике

  • Экскурсии в природу и в естественно-научные музеи

  • Мастер-классы и лабораторные работы на базе университетских коллекций и материально-приборной базы.

О реализации аналогичных проектов нам неизвестно, поэтому на данном этапе установить курс мы не можем. Предварительное анкетирование и тестовый запуск приложения позволят оценить эффективность (скорость и качество) оцифровки литературы. После этого, зная общий объем источников, подлежащих оцифровке, и доступный ресурс экспертов, мы сможем установить обменный курс. Общая схема Citizen Science прокта представлена на рис. 1.


Рис. 1. Схема Citizen Science проекта, реализуемых технологий и потоков данных


4.7. Задел

Имеющийся у научного коллектива научный задел по проекту, наличие опыта совместной реализации проектов

Задел по проекту

Разработана архитектура веб-приложения для оцифровки в рамках citizen science проекта, прототипирован интерфейс его разделов для ввода данных (рис., ссылка). Продумана архитектура реляционной БД с таблицами «публикации», «авторы», «пользователи», «таксоны», «регионы», «записи пользователей», «чистые данные». На базе ОКТМО (Общероссийский классификатор территорий муниципальных образований) подготовлен набор названий населенных пунктов и административных единиц и их соответствия друг другу. Разработан модуль проверки названий таксонов по каталогу пауков мира [WSC, 2023] (в обход средств пакета rgbif, которые все равно обращаются к WSC).

Для апробации подхода собран исчерпывающий список из более чем 450 публикаций, сведения из которых подлежат оцифровке. Из них около 200 изначально цифровые, оставшаяся часть отсканирована на 30%. Получено предварительное согласие о сотрудничестве с организациями, занимающимися экологическим просвещением: центр популяризации биоразнообразия «НатУРАЛист», сообщество «Бёрдинг в Удмуртии» и др. В рамках их мероприятий анонсирован Citizen Science проект по оцифровке и собраны контакты экскурсантов, выразивших желание в этом проекте поучаствовать.

Опыт совместной реализации проектов

Созонтов А.Н. и Иванова Н.В. совместными усилиями подготовили серию пленарных лекций и мастер-классов по информатике биоразнообразия (IV Международное арахнологическое совещание, онлайн; VII полевая школа по почвенной зоологии и экологии, Екатеринбург): «Публикация данных в репозитории GBIF – риск или новые возможности для исследователей?», «Функциональный аспект биоразнообразия», «Открытые репозитории о биоразнообразии: как получить и использовать данные портала GBIF.org», «Подготовка данных о сборах почвенных беспозвоночных для публикации через GBIF», «Работа в R: преодоление психологического барьера». Соколова С.С. и Созонтов А.Н. имеют опыт совместной популяризаторской деятельности – проведения энтомологических экскурсий для детей и взрослых.

4.8. Ресурсы имеющиеся

Перечень оборудования, материалов, информационных и других ресурсов, имеющихся у научного коллектива для выполнения проекта

  • Стационарные компьютеры имеется в достаточном количестве и с соответствующими задачам проекта параметрами

  • Ресурсы ЦКП УрО РАН – вычислительный кластер “Уран”: 1700 CPU Intel Xeon (44 Tflop/s), 165 GPU NVIDIA Tesla (206 Tflop/s), необходимых для обучения нейронных сетей по распознаванию данных о биоразнообразии из научных публикаций

  • Ресурсы сервера Института экологии растений и животных УрО РАН (развертыванияе онлайн-приложения и хостинг сайта проекта)

  • Оптические приборы (микроскопы, бинокуляры, увеличительные стекла) и коллекционные материалы для проведения практических занятий

  • Инструменты для экскурсий для группы до 10 человек (сачки, пинцеты, совки, ножи и ножницы)

  • Собран исчерпывающий перечень литературы, подлежащей оцифровке. Большое количество источников отсканированы в pdf, недостающие источники находятся в библиотеке Пермского национального исследовательского университета и зоологического музея МГУ (оригиналы и ксерокопии)

  • Информационная поддержка сообществ, занимающихся экологическим просвещением и популяризацией: Центр популяризации биоразнообразия , сообщество `

  • Идея проекта была озвучена представителям арахнологического сообщества [Созонтов, 2022] и получила их поддержку

4.9. План работы на первый год

План работы на первый год выполнения проекта

Дорожная карта реализации проекта представлена на рис. 1.

  1. Разработка и тестирование ядра веб-приложения (январь-февраль, Созонтов А.Н., Иванова Н.В.).

  2. Сбор pdf и метаданных публикаций (январь-февраль, Устинова А.Л.).

  3. Разработка и тестирование пользовательского интерфейса и верстка сайта (март-апрель, все исполнители).

  4. Формирование наборов пространственных и таксономических данных (Иванова Н.В., Устинова А.Л.).

  5. Запуск проекта по оцифровке (май, Созонтов А.Н., Соколова С.С.).

  6. Реализация проекта по оцифровке и его оптимизация (июнь-декабрь, Созонтов А.Н., Соколова С.С.).

  7. Разработка модулей для интеграции видовых характеристик и пространственных данных из внешних источников (ноябрь-декабрь).

  8. Работа над рукописью статьи об архитектуре, интерфейсе и функционале веб-приложения (Созонтов А.Н., Иванова Н.В., сентябрь-октябрь).

  9. Предварительный анализ эффективности проекта, подготовка рукописи о нём (ноябрь-декабрь).


Рис. 1. Хронология первого года работы (2024 г.)

4.10. Cодержание работы научного коллектива

Планируемое на первый год содержание работы каждого члена научного коллектива (включая руководителя проекта)

Созонтов А.Н.

Разработка и тестирование ядра веб-приложения, разработка пользовательского интерфейса и верстка сайта. Формирование наборов пространственных и таксономических данных. Запуск проекта по оцифровке и руководство им. Работа над рукописями для мобилизации литературных данных о находках биологических организмов, и о Citizen Science проекте по мобилизации данных.

Иванова Н.В.

Разработка и тестирование ядра веб-приложения. Формирование наборов пространственных и таксономических данных. Написание документации и руководства для веб-приложения. Работа над рукописями статей об архитектуре, интерфейсе и функционале веб-приложения для мобилизации литературных данных о находках биологических организмов, и о Citizen Science проекте по мобилизации данных.

Соколова С.С.

Тестирование веб-приложения. Разработка дизайна сайта. Сбор необходимых для проекта pdf и метаданных публикаций. Написание научно-популярных материалов для сайта. Запуск волонёрского проекта по оцифровке. о Citizen Science проекте по мобилизации данных.

Устинова А.Л.

Сбор необходимых для проекта pdf и метаданных публикаций. Написание научно-популярных материалов для сайта. Запуск волонёрского проекта по оцифровке. Работа над рукописью статьи о Citizen Science проекте по мобилизации данных.

4.11. Ожидаемые результаты (год 1)

Ожидаемые в конце первого года конкретные научные результаты

  1. Будет разработано и протестировано ядро веб-приложения для оцифровки данных о находках биологических организмов.

  2. Будут собраны необходимые для проекта по оцифровке pdf и метаданные публикаций.

  3. Будут сформированы наборы пространственных данных с иерархической структурой административных регионов, районов и населенных пунктов исследуемого региона

  4. Будет написана основная часть документации и научно-популярных материалов для сайта

  5. Будет запущен волонёрский проект по оцифровке

  6. Будет подготовлена рукопись статьи о архитектуре, интерфейсе и функционале веб-приложения для мобилизации литературных данных о находках биологических организмов.

  7. Будет подготовлена рукопись статьи, описывающей Citizen Science проект по мобилизации данных

  8. Результаты работы первого года будут представлены в виде докладов на двух конференциях всероссийского уровня

Приобретаемые ресурсы

4.12. Перечень планируемых к приобретению за счет гранта оборудования, материалов, информационных и других ресурсов для выполнения проекта

  • Микрофон-петличка и грмокоговоритель для провередния мероприятий (2 комплекта)

  • Организация дополнительных экскурсий и мастер-классов (через НКО и других партнеров проекта (30 экскурсий ежегодно - 150 т.р.)

  • Услуги по записи видеозаписи и монтажу роликов и популярных лекций (75 т.р.)

  • Полиграфические услуги

  • Ноутбуки для участников проекта

  • Полевое обмундирование для проведения экскурсий

Список литературы

1. Azarkina G. N. и др. A check-list and zoogeographic analysis of the spider fauna (Arachnida: Aranei) of Novosibirsk Area (West Siberia, Russia) // Arthropoda Selecta. 2018. Т. 27. № 1. С. 73–93.
2. Ball-Damerow J. E. и др. Research applications of primary biodiversity databases in the digital age // PLOS ONE. 2019. Т. 14. № 9. С. e0215794.
3. Beck J. и др. Whats on the horizon for macroecology? // Ecography. 2012. Т. 35. С. 673–683.
4. Belbin L., Williams K. J. Towards a national bio-environmental data facility: experiences from the Atlas of Living Australia // International Journal of Geographical Information Science. 2015. С. 1–20.
5. Bornmann L., Haunschild R., Mutz R. Growth rates of modern science: a latent piecewise growth curve approach to model publication numbers from established and new literature databases // Humanities and Social Sciences Communications 2021 8:1. 2021. Т. 8. № 1. С. 1–15.
6. Cardoso P. arakno: ARAchnid KNowledge Online. R package version 1.3.0: https://CRAN.R-project.org/package=arakno, 2022.
7. Chang W. и др. shiny: Web Application Framework for R // 2022.
8. Cheng J., Karambelkar B., Xie Y. leaflet: Create Interactive Web Maps with the JavaScript ’Leaflet’ Library. R package version 2.1.1,: https://CRAN.R-project.org/package=leaflet, 2022.
9. Conway J. и др. RPostgreSQL: R Interface to the ’PostgreSQL’ Database System // 2022.
10. Esyunin S. L. Catalogue of the spiders (Arachnida, Aranei) of the Urals and Cis-Ural region. Moscow: KMK Scientific Press Ltd, 2023.
11. Esyunin S. L., Efimik V. E. Catalogue of the spiders (Arachnida, Aranei) of the Urals. Moscow: KMK Scientific Press Ltd, 1996.
12. Esyunin S. L., Kazantsev D. K. On the spider (Aranei) fauna of the Pechoro-Ilychskiy Reserve (North Urals), with the description of a new Agroeca species (Liocraniidae) // Arthropoda Selecta. 2007. Т. 16. № 4. С. 245–250.
13. Feng X. и др. A review of the heterogeneous landscape of biodiversity databases: Opportunities and challenges for a synthesized biodiversity knowledge base // Global Ecology and Biogeography. 2022. Т. 31. С. 1242–1260.
14. Fomichev A. A., Ballarin F., Marusik Y. M. A new genus of the family Nesticidae (Arachnida: Aranei) from the Caucasus // Arthropoda Selecta. 2022. Т. 31. С. 99–110.
15. Guralnick R., Walls R., Jetz W. Humboldt Core - toward a standardized capture of biological inventories for biodiversity monitoring, modeling and assessment // Ecography. 2018. Т. 41. № 5. С. 713–725.
16. Heidorn P. B. Shedding Light on the Dark Data in the Long Tail of Science // Library Trends. 2008. Т. 57. № 2. С. 280–299.
17. Hijmans R. raster: Geographic Data Analysis and Modeling. R package version 3.5-29: https://CRAN.R-project.org/package=raster, 2022.
18. Hobern D. и др. Connecting data and expertise: A new alliance for biodiversity knowledge // Biodiversity Data Journal. 2019. Т. 7. № e33679. С. 1–999.
19. Hoogen J. и др. A global database of soil nematode abundance and functional group composition // Nature Scientific Data. 2020. Т. 7. № 103. С. 1–8.
20. Ivanova N. V., Shashkov M. P. Biodiversity databases in Russia: towards a national portal // Arctic Science. 2017. Т. 3. № 3. С. 560–576.
21. Keil P., Chase J. M. Global patterns and drivers of tree diversity integrated across a continuum of spatial grains // Nature Ecology & Evolution. 2019. № 3. С. 390–399.
22. König C. и др. Biodiversity data integrationthe significance of data resolution and domain // PLoS Biology. 2019. Т. 17(3). № e3000183. С. 1–16.
23. Mikhailov K. G. Catalogue of the spiders of the territories of the former Soviet Union. Moscow: Zoological museum of the Moscow State University, 1997.
24. Mikhailov K. G. The spiders (Arachnida: Aranei ) of Russia and adjacent countries: a non-annotated checklist // Arthropoda Selecta. 2013a. № Suppl. 3. С. 1–262.
25. Mikhailov K. G. On the spider fauna (Arachnida: Aranei) of the Mordovian State Reserve, Russia: preliminary results // Arthropoda Selecta. 2013b. Т. 22. С. 301–310.
26. Mukhacheva S. V., Davydova Y. A., Sozontov A. N. Small mammals of background areas in the vicinity of the Karabash copper smelter (Southern Ural, Russia) // Biodiversity Data Journal. 2022. Т. 9. № e70599. С. 1–19.
27. Mukhacheva S. V., Sozontov A. N. Long-term Dynamics of Small Mammal Communities in the Period of Reduction of Copper Smelter Emissions: 2. β-Diversity // Russian Journal of Ecology. 2021. Т. 52. № 6. С. 533–542.
28. Nelson G., Ellis S. The history and impact of digitization and digital data mobilization on biodiversity research // Phil. Trans. R. Soc. B. 2018. Т. 374. № 20170391. С. 1–9.
29. Nentwig W., Gloor D., Kropf C. Spider taxonomists catch data on web // Nature. 2015. Т. 528. № 7583. С. 479–479.
30. Pebesma E. Simple Features for R: Standardized Support for Spatial Vector Data // The R Journal. 2018. Т. 10. № 1. С. 439–446.
31. Pebesma E. Spatiotemporal Arrays, Raster and Vector Data Cubes // 2022.
32. Pekár S. и др. The World Spider Trait database: a centralized global open repository for curated data on spider traits // Database: the journal of biological databases and curation. 2021. Т. 2021. С. baab064.
33. Phillips H. R. P. и др. Global data on earthworm abundance, biomass, diversity and corresponding environmental properties // Nature Scientific DataScientific Data. 2021. Т. 8. № 136. С. 1–12.
34. Rodionov I. V., Sozontov A. N. On Confidence Estimation Based on Quantitative Similarity Coefficients // Automation and Remote Control. 2020. Т. 81. № 2. С. 272–284.
35. Schulman L. и др. the Finnish Biodiversity Information Facility as a best-practice model for biodiversity data infrastructures // Nature Scientific Data. 2021. Т. 8. № 137. С. 1–16.
36. Sievert C. Interactive Web-Based Data Visualization with R, plotly, and shiny. Boca Raton, FL: CRC Press, 2020.
37. Sozontov A. N. Spiders of the Udmurt Republic, Russia // Biodiversity Data Journal. 2021. Т. 9. № e70534. С. 1–27.
38. Sozontov A. N., Esyunin S. L. On the spider fauna (Arachnida: Aranei) of the ’Ust’-Belsk’ Natural Park and its vicinities // Arthropoda Selecta. 2014. Т. 23. № 3. С. 301–310.
39. Sozontov A. N., Esyunin S. L. Spiders of the Udmurt Republic: fauna, ecology, phenology and distribution. Moscow: KMK Scientific Press, 2022.
40. Sozontov A. N., Esyunin S. L., Ukhova N. L. Spiders (Arachnida: Araneae) of the Visim Biosphere Reserve (Middle Urals): 37 years of arachnological research // Biodiversity Data Journal. 2023.
41. Thelwall M., Sud P. Scopus 19002020: Growth in articles, abstracts, countries, fields, and journals // Quantitative Science Studies. 2022. Т. 3. № 1. С. 37–50.
42. Wickham H. ggplot2: Elegant Graphics for Data Analysis. New York, NY: Springer-Verlag, 2016.
43. Wickham H. и др. dplyr: A Grammar of Data Manipulation. R package version 1.0.10: https://CRAN.R-project.org/package=dplyr, 2022.
44. Wickham H., Girlich M. tidyr: Tidy Messy Data. R package version 1.2.1: https://CRAN.R-project.org/package=tidyr, 2022.
45. Wieczorek J. и др. Darwin Core: An Evolving Community-Developed Biodiversity Data Standard // PLoS ONE. 2012. Т. 7. № 1. С. e29715.
46. WSC. World spider catalogue. Version 24 // 2023.
47. Бельская Е. А. и др. Напочвенные членистоногие темнохвойного леса после снижения выбросов медеплавильного завода: происходит ли восстановление сообществ? // Экология. 2023.
48. Гасилин В. В. и др. Изменения состава и относительного обилия копытных евразийской лесостепной зоны в голоцене // Зоологический Журнал. 2021. Т. 100. № 12. С. 220–231.
49. Есюнин С. Л., Новокшенов В. Г. Интересные находки пауков (Aranei) из Юганского заповедника // Труды зоологического института АН СССР. 1992. Т. 226. С. 115–117.
50. Малых Д. А., Созонтов А. Н. Микростациальное распределение наземных членистоногих в лесах Свердловской области. Екатеринбург: Альфа Принт, 2022. С. 102–104.
51. Родионов И. В., Созонтов А. Н. К вопросу о статистической значимости коэффициентов сходства. Екатеринбург: Гуманитарный университет, 2019. С. 595–595.
52. Созонтов А. Н. Интегративный подход к гетерогенным данным из открытых источников, 2023. С. in print.
53. Созонтов А. Н. Пауки (Aranei) Удмуртской Республики: разнообразие, биотопические комплексы, структура населения. Автореф. дисс. канд. биол. н. Ижевск:, 2018.
54. Созонтов А. Н. Мобилизация данных о распространении пауков (Araneae) России с привлечением возможностей citizen science. М.: Т-во научных изданий КМК, 2022. С. 153.
55. Созонтов А. Н. и др. Восстановление населения напочвенных членистоногих после снижения выбросов медеплавильного завода. Улан-Удэ: Изд-во БНЦ СО РАН, 2022. С. 152–154.
56. Танасевич А. В. К изучению пауков (Aranei) Полярного Урала. Л.: Зоологический институт АН СССР, 1985. С. 52–62.
57. Тунева Т. К., Есюнин С. Л. К фауне пауков (Aranei) Леоновских гор (Челябинская область) // Евразиатский Энтомологический Журнал. 2012. Т. 11. С. 373–377.